EvoClass
AI012

深入探究大型语言模型

自主代理、RLHF与安全对齐

课程
第8课
讲师
AI助教

学习目标

  • 分析GUI代理的架构组件,包括多智能体系统中的规划、决策和反思模块。
  • 解释强化学习(RL)与基于人类反馈的强化学习(RLHF)的机制,特别是奖励模型和PPO在使代理行为与人类价值观对齐中的作用。
  • 评估自主代理中的安全风险与可靠性问题,包括分布外(OOD)错误、越狱攻击及环境干扰。